加固学习算法可以解决动态决策和最优控制问题。通过连续值的状态和输入变量,强化学习算法必须依赖函数近似器来表示值函数和策略映射。常用的数值近似器,如神经网络或基础函数扩展,具有两个主要缺点:它们是黑匣子型号,可以对学习的映射有很小的洞察力,并且他们需要广泛的试验和错误调整它们的超参数。在本文中,我们通过使用符号回归提出了一种以分析表达式的形式构建平滑值函数的新方法。我们介绍了三种离线方法,用于基于状态转换模型查找值函数:符号值迭代,符号策略迭代,以及Bellman方程的直接解决方案。该方法在四个非线性控制问题上说明:速度控制摩擦力控制,单键和双连杆摆动,和磁操作。结果表明,该价值函数产生良好的策略,并紧凑,数学上易行,易于插入其他算法。这使得它们可能适用于进一步分析闭环系统。使用神经网络的替代方法的比较表明,我们的方法优于基于神经网络的方法。
translated by 谷歌翻译
The short-term prediction of precipitation is critical in many areas of life. Recently, a large body of work was devoted to forecasting radar reflectivity images. The radar images are available only in areas with ground weather radars. Thus, we aim to predict high-resolution precipitation from lower-resolution satellite radiance images. A neural network called WeatherFusionNet is employed to predict severe rain up to eight hours in advance. WeatherFusionNet is a U-Net architecture that fuses three different ways to process the satellite data; predicting future satellite frames, extracting rain information from the current frames, and using the input sequence directly. Using the presented method, we achieved 1st place in the NeurIPS 2022 Weather4Cast Core challenge. The code and trained parameters are available at \url{https://github.com/Datalab-FIT-CTU/weather4cast-2022}.
translated by 谷歌翻译
本文解决了解释黑框回归模型异常预测的任务。当使用黑框模型(例如从许多传感器测量值中预测能源消耗的一个模型)时,我们通常会有某些观察到的样品可能会显着偏离其预测的情况。这可能是由于亚最佳黑盒模型,或仅仅​​是因为这些样品是异常值。无论哪种情况,理想情况下都希望计算``责任分数'',以指示输入变量负责异常输出的程度。在这项工作中,我们将此任务形式化为一个统计逆问题:给定模型偏离预期值,推断每个输入变量的责任分数。我们提出了一种称为似然补偿(LC)的新方法,该方法基于可能性原理,并计算对每个输入变量的校正。据我们所知,这是第一个计算实际有价值异常模型偏差的责任分数的原则性框架。我们将方法应用于现实世界中的建筑能源预测任务,并根据专家反馈确认其实用性。
translated by 谷歌翻译
我们考虑了与视图合成的重大视点变化下的两视图匹配的问题。我们提出了两种新颖的方法,将视图合成开销最小化。第一个名为denseaffnet,使用了affnet的密集仿射形状估计值,它允许其划分图像,仅使用单个仿射图对每个分区进行整流。第二个名为Depthaffnet,结合了深度图和仿射形状估算的信息,以生成不同图像分区的不同整体构图仿射图。Denseaffnet比最先进的速度快,并且在通用场景上更准确。Depthaffnet在包含大平面的场景上与最先进的状态相提并论。评估是在3个公共数据集上执行的-EVD数据集,强烈的观点更改数据集和IMC光仪数据集。
translated by 谷歌翻译
深度强化学习(DRL)的最新进步通过允许自动控制器设计促进了机器人技术。自动控制器设计是设计群体机器人系统的关键方法,与单个机器人系统相比,它需要更复杂的控制器来领导所需的集体行为。尽管基于DRL的控制器设计方法显示出其有效性,但对中央培训服务器的依赖是在机器人服务器通信不稳定或有限的现实环境中的关键问题。我们提出了一种新型联邦学习(FL)的DRL培训策略(FLDDPG),以用于群体机器人应用。通过在有限的通信带宽方案下与基线策略进行比较,可以证明,FLDDPG方法导致更高的鲁棒性和泛化能力进入不同的环境和真正的机器人,而基线策略则遭受了通信带宽的限制。该结果表明,所提出的方法可以使在通信带宽有限的环境中运行的群体机器人系统受益,例如在高辐射,水下或地下环境中。
translated by 谷歌翻译
维数减少方法发现了巨大的应用程序作为不同科学领域的可视化工具。虽然存在许多不同的方法,但它们的性能通常不足以提供对许多当代数据集的快速深入了解,并且无监督的使用方式可防止用户利用数据集探​​索和微调可视化质量的细节方法。我们呈现开花,一种高性能半监督维度减少软件,用于具有数百万个单独的数据点的高维数据集的交互式用户可信可视化。 Blossom在GPU加速实施的EMBEDSOM算法的实现上,由几个基于地标的算法补充,用于将无监督模型学习算法与用户监督联系起来。我们展示了开花在现实数据集上的应用,在那里它有助于产生高质量的可视化,该可视化包含用户指定的布局并专注于某些功能。我们认为,半监督的维度减少将改善单细胞细胞谱系等科学领域的数据可视化可能性,并为数据集勘探和注释提供了新的方向的快速有效的基础方法。
translated by 谷歌翻译
基于模板的鉴别性跟踪器是目前主导的跟踪范例由于其稳健性,但不限于边界框跟踪和有限的转换模型,这降低了它们的本地化准确性。我们提出了一个判别的单次分割跟踪器 - D3S2,其缩小了视觉对象跟踪和视频对象分段之间的差距。单次网络应用两个具有互补的几何属性的目标模型,一个不变的变换,包括非刚性变形,另一个假设刚性对象同时实现强大的在线目标分段。通过解耦对象和特征比例估计,进一步提高了整体跟踪可靠性。没有每数据集FineTuning,并且仅用于分段作为主要输出,D3S2胜过最近的短期跟踪基准Vot2020上的所有已发布的跟踪器,并非常接近GOT-10K上的最先进的跟踪器, TrackingNet,OTB100和Lasot。 D3S2优于视频对象分段基准上的前导分割跟踪器SIAMMASK,并与顶部视频对象分段算法进行操作。
translated by 谷歌翻译